Giới thiệu về lập trình Triton: Từ các toán tử ngay lập tức đến song song theo khối

Chuyển đổi từ Chế độ Eager của PyTorch sang Triton yêu cầu thay đổi cách nhìn từ tensor như một đối tượng nguyên vẹn sang xem chúng như tập hợp các khối riêng biệt, dễ quản lý khối hoặc ô.

1. Tensor của PyTorch so với Triton

Điều quan trọng là phải phân biệt tensor của Triton với tensor của PyTorch. Một tensor của PyTorch là một đối tượng Python ở phía máy chủ bao bọc thông tin hình dạng, kiểu dữ liệu, thiết bị, bước nhảy và thông tin lưu trữ. Ngược lại, Triton làm việc với con trỏ dữ liệu thô trong các khối bộ nhớ cụ thể, cho phép tối ưu hóa ở mức thấp hơn nhiều.

2. Cái nút thắt Eager

Trong thực thi ngay lập tức tiêu chuẩn, mỗi thao tác (ví dụ: cộng rồi sau đó áp dụng ReLU) đều cần khởi chạy kernel riêng biệt và một lượt đi về bộ nhớ toàn cục. Đây là điểm nghẽn chính trong tính toán GPU hiện đại. Triton vượt qua điều này bằng cách gộp các thao tác trong một kernel duy nhất xử lý các khối dữ liệu (ví dụ: 128, 256 hoặc 512 phần tử) trực tiếp trong bộ nhớ trên chip.

3. Mô hình dựa trên khối

Thay vì tư duy cấp số vô hướng như các luồng CUDA, Triton sử dụng SPMD (Chương trình đơn, Dữ liệu đa) ở cấp độ khối. Bạn viết một kernel, và Triton khởi chạy nhiều phiên bản trên một lưới. Mỗi phiên bản sử dụng program_id để tính toán khối bộ nhớ nào mà nó sở hữu.

4. Thiết lập môi trường

Để bắt đầu, cài đặt Triton trong môi trường sạch (dùng Conda hoặc venv) để đảm bảo không có xung đột phụ thuộc với các công cụ CUDA hiện có: pip install triton.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

What is the primary difference between a PyTorch tensor and a Triton tensor within a kernel?

Triton tensors contain Python metadata like strides; PyTorch tensors are raw pointers.

A PyTorch tensor is a host-side object wrapping metadata; a Triton tensor represents blocks of data processed at the compiler level.

There is no difference; they are the same object.

Triton tensors are stored on the CPU, while PyTorch tensors are on the GPU.

QUESTION 2

Why is 'Eager Mode' considered a bottleneck for modern GPU performance?

Because it uses too much CPU memory.

Every operation requires a separate kernel launch and a global memory round-trip.

It cannot handle floating-point numbers.

It lacks support for the Python language.

QUESTION 3

What is the result of installing Triton in a 'dirty' environment with conflicting CUDA toolkits?

Triton will automatically fix the CUDA path.

It may lead to library version mismatches and kernel compilation errors.

The GPU will run faster due to multiple toolkit options.

Triton does not use CUDA, so there is no conflict.

QUESTION 4

Draw the mapping from pid to index range for N=1000, BLOCK_SIZE=256.

pid 0: [0, 256); pid 1: [256, 512); pid 2: [512, 768); pid 3: [768, 1000)

pid 0: [0, 1000)

pid 0: [0, 256); pid 1: [257, 512); pid 2: [513, 768); pid 3: [769, 1000)

pid 1: [0, 256); pid 2: [256, 512); pid 3: [512, 768); pid 4: [768, 1000)

QUESTION 5

In block-based parallelism, the instruction shift moves from 'compute one element' to:

'Compute one entire tensor'.

'Compute one block of 128/256/512 elements'.

'Compute one scalar at a time'.

'Let the CPU handle the math'.